Manifold Mixup: Better Representations by Interpolating Hidden States

どういうの？

無作為に選んだ層までは普通に計算して，その層の出力の複数をランダムに選んでMixup

そのままその値を使って最終層まで計算＆lossを計算し, 逆伝播

決定境界が滑らかになるらしい

簡単に説明すると, まず特徴量空間上で特徴量がflattenな状態に収束していくらしい

flatten=小さい部分空間で表現できるということなので, better

MNISTでのtoy-experimentでも実際に再現されていて, 具体的には中間層の出力$ \mathrm{\bm{X}} に対して特異値分解をして, 特異値を降順に並べたとき$ [1,N)の特異値の総和がManifold Mixupのみ減少したらしい

固有値を想起するとわかりやすい→一方向にだけ引っ張られてる=flatten

https://gyazo.com/36f01950b9eaae3b6a59568568d1b5a5